查看原文
其他

9个月、从零开始训练,Midjourney V6来了!号称比以前所有版本都强大

AI前线 2024-01-21

整理|冬梅、核子可乐
新模型将带来更强大的 enhancer、upscaler、提示词遵循以及文本生成功能。当然,审查机制也更加严格。

圣诞前夕,又一份大礼从天而降:由 David Holz 主导开发团队打造的高人气图像生成 AI 模型的最新、最强版本 Midjourney V6 现已发布,目前处于 alpha 测试阶段,并立即得到众多高级用户的关注。

新版本带来一系列令人欣喜的改进,也帮助那些已经在通过 Midjourney 乃至其他 AI 艺术工具创作图像的用户巩固了信心。

在官方发布的 Discord 帖子中,该公司将 V6 版本定位为重大革新成果。

公告解释称,“提示词遵循效果将更加准确,可容纳的提示词更长、连贯性更高、模型知识也更为丰富。”此外,公告还强调了 V6 版本相较于 2023 年 5 月推出的 V5.1 版模型的进步之处。V5 模型的主要亮点在于出色的易用性,可支持简短提示词并带来美学效果提升,这也为处理能力更强、更复杂的 V6 版本奠定了基础。

实际上 OpenAI DALL-E 3 以及 Ideogram 等竞争对手 AI 图像生成器已经推出了此类功能,但 Midjourney 自 2022 年亮相以来却始终未能实现。

Holz 在 Midjourney Discord 服务器(目前已拥有超 1700 万会员)发帖指出,“这套模型生成的图像在真实度方面远超我们以往发布的任何版本。”Holz 还提到,V6 实际是“我们在 AI 超级集群上从零开始训练而成的第三套模型”,整个开发周期长达九个月

同类型产品相比,
MJ V6 表现如何?

V6 模型最值得关注的功能之一,就是其文本绘制功能。虽然并不属于本次升级的重点(开发团队表示这仍属于「次要」功能),但这仍令 MidJourney 获得了直接与 DALL-E 3 乃至 Ideogram 等其他领先模型直接竞争的资格。更重要的是,MidJourney 采取了一种截然不同的独特文本生成方法。

MidJourney 表示这是一种“次要文本绘制能力,用户必须在「引号」内编写文本,并配合—style raw 或者更低的—stylize 值来实现生成。”

这里使用 Decrypt 对 MidJourney 与以文本生成准确性而闻名的 DALL-E 3 进行了测试比较。从结果来看,MidJourney 似乎优先考虑风格和美观度,有时甚至会为此而牺牲文本准确性。大多数时候,它生成的文本要么不够准确、要么无法生成。但只要能够顺利输出,其图像质量至少与 DALL-E 3 的结果相当、甚至更好。顺带一提,DALL-E 3 是专为 ChatGPT 和微软 Bing 提供技术支持的文本到图像 AI 模型。

将 MidJourney、DALL-E 3、SDXL 加 Harrlogos 以及 Ideogram AI 的文本生成功能进行比较,最简单的概括就是 MidJourney 更适合那些以美观为优先考量的需求,DALL-E 3 在易用性和卡通风格数字创作上表现较好,SDXL 主要面向那些精通 A1111 WebUI 的用户,而 Ideogram AI 则更善于牺牲一点美学效果来换取文本还原效果。

MidJourney 和 ChatGPT 上的 DALL-E 3 目前均需要付费使用,但 SDXL 和 Ideogram AI 则免费开放。Bing 版本的 DALL-E 3 倒是提供免费使用,但仅支持生成矩形图像,而且用户只能修改提示词、无法直接使用 OpenAI 提供的自然对话方式。

V6 的速度比 V5 略慢一些、成本也更高,但该团队希望能随时间推移而加快模型速度。V6 模型还拥有更加“微妙”且“创意性”的 upscaler,能够将图像分辨率提高至 2 倍。

将这些功能与各种受支持的参数(例如用于更改分辨率的—ar、用于在每次生成结果间体现差异的—chaos、用于更改模型创意程度的—stylize 等)相结合,将为用户带来广泛探索创意空间的可能性。但图像修复、覆盖和图像描述等功能尚不可用。据 MidJourney 介绍,这些功能应该会在下个月逐一补全。

公告鼓励用户们运用这些“令人难以置信的力量,但在享受愉悦与惊奇也应保持负责和尊重的态度”,这也一直是 MidJourney 抱持的宗旨所在。而且后半部分所言非虚,官方的审查制度也将更加严格。

公告中写道,“别干坏事,也不要创作有争议的图像。”这很可能是指 MidJourney 将阻止创作色情或跟政治相关的 Deepfake 图像。

如何使用 MJ V6 新模型?

值得一提的是,此次更新似乎不会默认对用户开放。大家需要在 Midjourney Discord 服务器中、或者在 Midjourney 机器人的直接消息(DM)栏中输入斜杠命令“/settings”,之后在上方的下拉菜单中选择 V6。或者,也可以按照传统方式进行操作,在提示词后方手动输入“—v 6”。

MJ V6 有什么新功能?

具体来讲,Holz 公布了以下几项新功能:

  • 更准确的提示词遵循效果,并可容纳更长的提示词;

  • 提高了输出一致性和模型知识储备;

  • 改进了图像提示与重新混合;

  • 次要文本绘制能力(用户需要在「引号」内编写文本,配合—style raw 或者更低的—stylize 值可能效果更好)。

    /imagine a photo of the text "Hello World!" written with a marker on a sticky note --ar 16:9 --v 6


  • 改进的 upscaler,提供“subtle”(微妙)与“creative”(创意)两种模式(可将分辨率提升至 2 倍)。

  • 鼓励新的提示词编写方式

作为 Midjourney 项目的创始人和负责人,Holz 还公布了一种全新的提示词编写方法。

长期以来,Midjourney 要求用户在 Discord 服务器或者 Alpha 版本的网站中输入特定的文本描述加关键词来生成图像,但很多使用者反映体验深奥而且相当考验技术。为此,用户们还专门在社交媒体上分享了比较好用的提示词编写范式,例如引用相机名称(例如徕卡 M11)、胶片格式(35 毫米)和分辨率(8k),以便从 AI 模型中获取高质量、逼真甚至趋近电影的视觉效果。

但 Holz 在他的 Discord 帖子中明确指出,这类提示词编写方式在 V6 上将呈现出与期望相背的效果。“大家需要重新学习如何编写提示词。”

  • V6 模型的使用方式与 V5 差异较大,您需要“重新学习”如何编写提示词。

  • V6 对于提示词的内容更加敏感,请勿使用诸如“广受好评、逼真、4k、8k”之类的“垃圾描述”。

  • 请明确表达需求。V6 可能表现得不那么机灵,但只要提供明确的提示,它现在可以更好地理解您的意图。

  • 如果希望生成摄影风格 / 少点自由发挥 / 多点忠于提示词的内容,则应默认使用—style raw。

  • 将—stylize 的值设置得更低(默认为 100)往往有助于改善提示词理解效果,而较高的值(最高 1000)则倾向于牺牲还原度来换取美学效果。

  • 您可以在 prompt-chat 中通过聊天来了解如何使用 V6 新模型。

MJ V6 用起来怎么样?

模型刚发布不久,就已经有国外网友简单测试了 MJ V6。该名网友表示,“至少就个人使用体验来讲,此次更新只能说是平淡无奇。虽然确实看到了更多的细节和更逼真的生成效果,但区别跟上代模型并不是很大。反正我是没办法一眼就看出哪张图片是 V5.2 生成的、哪张是 V6 生成的。”

但不可否认,V6 生成的灯光效果和反射细节确实让人深刻印象。

包括恐怖片导演兼数字艺术家 Chris Perna 在内的其他狂热用户,已经开始对 MJ V6 的生成功能进行全面测试,并将成果发布到了 Instagram 及其他社交媒体网站之上。从早期示例来看,V6 的文本生成效果确实相当出彩。

Chris Perna 发文并配图称,“刚开始,“克苏鲁觉醒”还真让新版 V6 有点懵。”

一些网友也晒图并发表了自己对于 V6 的看法。

Midjourney V6……终于可以绘制文字啦!也许效果还不完美,但我一直在探索要如何实现。这四张图都是一次生成的结果,可能是我运气好吧🤷‍♂️

Midjourney V6 中的皮肤细节令人难以置信。

Midjourney V6 的生成效果非常出色!同等分辨率下的细节大幅增加。请注意,这并不是最终模型图像,也没有经过 upscale 处理。

使用相同提示词,从 Midjourney V1 到 V6 的生成效果区别:白色背景、苍老刻薄的男性肖像特定,92 岁,皱纹,逼真的皮肤质感,室内照明,佳能 f/4。

Holz 在发布 V6 的 Discord 帖子中指出,新模型“尚处于 alpha 测试阶段。期间会有很多调整变更,恕不另行通知……在最终正式发布 V6 时,很多情况将发生重大变化……V6 也不会是 Midjourney 的终点,希望大家能够感受到这套满载我们集体智慧与创意结晶的模型的一路发展和演进。”

此外,V6 目前还缺少 V5.2 模型中的一些功能,包括左右平衡和缩小,但 Holz 表示这些功能将在 V6 的后续更新中实现。

作为许多人眼中最卓越、质量最出色、也最具创意的 AI 艺术生成器,Midjourney 的此次更新表明其从未停止技术探索和模型改进的脚步,而且在市场上也始终保持着领先地位。目前挑战 Midjourney 的竞争对手要么使用内部自有模型,要么选择开源 Stable Diffusion 模型——这是一种流行的 AI 底层技术,其中的扩展算法经过训练以从视觉“噪声”中重新创建图像。

与此同时,Midjourney 和其他基于扩散技术的 AI 艺术生成器也面临着艺术家们发起的版权侵犯集体诉讼。这些艺术家指控对方在未经自己明确同意、或提供补偿的情况下,利用他们公开发表的作品训练 AI 模型。但 AI 厂商也没有坐以待毙,正在积极探索在 AI 艺术创作工具中建立强大的“安全使用”防侵权机制。

参考链接:

https://venturebeat.com/security/in-todays-global-threat-landscape-it-pays-to-go-back-to-basics/

https://decrypt.co/210637/midjourney-v6-base-model-upgrade-text-generation

活动推荐

12 月 28-29 日, 2023 年最后一场 QCon 全球软件开发大会 & QCon 中国 15 周年 Party 即将落地上海。除了精彩演讲之外,还有 7 大亮点活动,等你一起来玩~

① 承载着最前沿生成式 AI 技术之旅「 下一站 GenAI 」;

②「云原生时代的数据架构与性能提升」专场免费报名;

③五场高端闭门交流会议;

④大模型精彩公开路演,免费参与;

⑤大模型展区新升级,10+ 大模型及应用厂商现场 Battle;

⑥「2023 数字化践行者年度力量榜」榜单评选结果正式发布;

⑦ 两大抽奖活动,100% 中奖率!

现日程已全部上线,点击「阅读原文」即可自行定制您的参会议程,更多大会相关资讯可扫描下方二维码进行了解。咨询购票可联系票务经理 18514549229,锁定最新优惠。

今日荐文

银行工程师离职删库,被判两年监禁;华为做得好被指因为“财散人聚”机制;GPT-4.5被疑定价是GPT-4的6倍|AI一周资讯


ChatGPT出现后,我决定以后砸锅卖铁都不让后代当程序员了


离开云转战AI?23岁写了百万人用的开源软件,这个IT奇才11年后离开了自己的上市公司


英特尔高宇:AI 工作负载有多种形态和规模,硬件上没有一刀切的解决方案


Gemini演示视频“翻车”后,谷歌接连放大招:向云客户免费提供Gemini Pro,推出AI代码辅助工具,集成25家公司数据集


走进施耐德电气工厂:目标瞄向 AI 和数字孪生



你也「在看」吗? 👇

继续滑动看下一个

9个月、从零开始训练,Midjourney V6来了!号称比以前所有版本都强大

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存